-
加法法则 (Sum Rule / Marginalization): 用于计算边缘概率(Marginal Probability),即消去不需要的变量。
- 离散型 (Discrete):
- 连续型 (Continuous):
- 离散型 (Discrete):
-
乘法法则 (Product Rule): 联合概率(Joint Probability)可以分解为条件概率和边缘概率的乘积。
- 公式:
- 公式:
-
贝叶斯定理 (Bayes' Theorem): 用于根据观测数据更新对参数的信念。
- 公式:
- 术语对照:
: 后验概率 (Posterior) —— 看到数据 后对 的信念。 : 似然 (Likelihood) —— 给定 时数据 出现的可能性。 : 先验概率 (Prior) —— 看到数据前对 的信念。 : 证据/边缘似然 (Evidence / Marginal Likelihood) —— 归一化常数。
- 公式:
-
独立性 (Independence):
- 统计独立 (Statistical Independence):
独立 。 - 条件独立 (Conditional Independence): 给定
, 和 独立 。
- 统计独立 (Statistical Independence):
随机变量与分布 (Random Variables & Distributions)
- 期望 (Expected Value / Mean):
- 离散:
- 连续:
- 性质: 线性性质
,。
- 离散:
- 方差 (Variance): 衡量数据的离散程度
- 定义:
- 常用计算公式 (Raw-score formula):
- 定义:
- 常用分布 (Common Distributions):
| 分布名称 (Name) | 类型 | 公 式 / 特点 | 备注 |
|---|---|---|---|
| 伯努利 (Bernoulli) | 离散Discrete Distribution | 单次硬币投掷模型 | |
| 二项分布 (Binomial) | 离散 | ||
| 泊松分布(Poisson) | 离散 | ||
| 离散均匀分布(Discrete Uniform) | 所有结果概率相等的情况(如掷公平的骰子) | ||
| 高斯/正态 (Gaussian) | 连续Continuous | 中心极限定理,ML中最重要分布 | |
| 多元高斯 (Multivariate Gaussian) | 连续 | 由均值向量 |
线性回归、PCA的基础 |
| 连续均匀分布(Continuous Uniform) | 表示对某个区间内取值没有任何偏好 | ||
| Beta 分布 | |||
| 拉普拉斯分布 (Laplace Distribution) |
- 共轭先验 (Conjugate Prior): 如果先验分布
和似然函数 结合后,得到的后验分布 与先验属于同一类分布,则称该先验为共轭先验。
考试常考“给定似然函数,应该选什么先验分布才能进行解析推导”**。
| 似然函数 (Likelihood) | 模型参数 (Parameter) | 对应的共轭先验 (Conjugate Prior) | 后验分布 (Posterior) |
|---|---|---|---|
| Bernoulli (伯努利) | Beta | Beta | |
| Binomial (二项) | Beta | Beta | |
| Multinomial (多项) | Dirichlet | Dirichlet | |
| Gaussian (高斯) | Gaussian | Gaussian | |
| Gaussian (高斯) | Inverse Gamma | Inverse Gamma | |
| Multivariate Gaussian | Inverse Wishart | Inverse Wishart |
复习提示:
- 指数族分布 (Exponential Family): 上述大多数分布(高斯、伯努利、Beta等)都属于指数族分布。它们具有良好的数学性质,例如都有共轭先验,且最大似然估计(MLE)通常有解析解。
- 变量变换 (Change of Variables): 如果
,且 服从某种分布,如何求 的分布?这也是考点之一,涉及到雅可比行列式 (Jacobian determinant)。 - 例子: Beta 分布是二项分布的共轭先验(Posterior 也是 Beta 分布)。
参数估计 (Parameter Estimation)
这是连接概率论与机器学习训练过程的桥梁。
最大似然估计 (Maximum Likelihood Estimation, MLE)
找到一个参数
步骤:
- 写出似然函数 (Likelihood Function)
假设观测数据是独立同分布 (i.i.d.) 的,写出所有观测值的联合概率:
- 取对数 (Log-Likelihood)
为了把累乘变成累加,方便求导:
- 求导并令导数为 0
对参数求导(梯度),并寻找极值点:
MLE 思路:
只看似然项。如果似然是高斯分布,MLE 目标就是:
这就是普通的最小二乘法,它只关心怎么拟合数据
最大后验估计 (Maximum A Posteriori, MAP):
在 MLE 的基础上加入了先验知识
步骤:
- 写出后验概率
的比例关系 - 取负对数变换 (Negative Log-Likelihood),将最大化概率问题转变为最小化能量(损失)函数问题:
- 根据题目给出的概率密度函数(PDF)的形式,识别出对应的损失项:
-
如果似然是拉普拉斯分布,先验是高斯分布,则目标函数为:
。 -
如果似然和先验都是高斯分布,则目标函数为:
。 理解为:
-
分布与损失表
| 概率分布类型 | PDF 指数项形式 | 对应的损失项 (负对数变换) | 常见的机器学习术语 |
|---|---|---|---|
| 高斯分布 (Gaussian) | L2 损失 / MSE / 岭回归 | ||
| 拉普拉斯 (Laplace) | L1 损失 / MAE / LASSO | ||
| 伯努利 (Bernoulli) | 二元交叉熵 (BCE) | ||
| 多项分布 (Categorical) | 交叉熵 (Cross Entropy) |
Probability Density Function
定义与性质 (Definition & Properties)
对于一个连续型随机变量
- 非负性 (Non-negativity): 对于所有
,函数值必须大于等于 0: - 归一化 (Normalization): 在整个定义域上的积分必须等于 1:
PDF 与概率的关系 (Relation to Probability)
PDF 的函数值
- 区间概率: 变量
落在区间 内的概率是该区间下 PDF 曲线的面积: - 单点概率为 0: 对于连续变量,取任意特定值
的概率为 0:
Cumulative Distribution Function (CDF) 定义为
- 积分求 CDF:
- 求导求 PDF:
常见的 PDF 例子 (Common Examples)
课程中详细介绍了以下几种分布的 PDF:
- 均匀分布 (Uniform Distribution): 在区间
上概率密度是常数 。 - 高斯分布 (Gaussian Distribution): 最重要的分布。
- 一元 (Univariate): 由均值
和方差 决定: - 多元 (Multivariate): 由均值向量
和协方差矩阵 决定:
- 一元 (Univariate): 由均值
变量变换 (Change of Variables)
这是课程中的一个难点。如果随机变量
- 一元情况: 需要乘以变换函数的导数的绝对值:
- 多元情况: 需要乘以 Jacobian Matrix (雅可比矩阵) 行列式的绝对值: